podatki <- read.table("/cloud/project/Poglavje 3/Naloga 2/Sprejemni izpiti.csv", header=TRUE, sep=";", dec=",")
head(podatki)
## ID GRE TOEFL Univerza Motivacija Priporočila Dodiplomski
## 1 1 337 118 4 4.5 4.5 9.65
## 2 2 324 107 4 4.0 4.5 8.87
## 3 3 316 104 3 3.0 3.5 8.00
## 4 4 322 110 3 3.5 2.5 8.67
## 5 5 314 103 4 5.0 3.0 8.21
## 6 6 330 115 5 4.5 3.0 9.34
## Raziskovanje Sprejetje
## 1 1 1
## 2 1 1
## 3 1 1
## 4 1 1
## 5 0 1
## 6 1 1
Opis spremenljivk:
podatki$SprejetjeFaktor <- factor(podatki$Sprejetje,
levels = c(0, 1),
labels = c("NE", "DA"))
podatki$RaziskovanjeFaktor <- factor(podatki$Raziskovanje,
levels = c(0, 1),
labels = c("NE", "DA"))
head(podatki)
## ID GRE TOEFL Univerza Motivacija Priporočila Dodiplomski
## 1 1 337 118 4 4.5 4.5 9.65
## 2 2 324 107 4 4.0 4.5 8.87
## 3 3 316 104 3 3.0 3.5 8.00
## 4 4 322 110 3 3.5 2.5 8.67
## 5 5 314 103 4 5.0 3.0 8.21
## 6 6 330 115 5 4.5 3.0 9.34
## Raziskovanje Sprejetje SprejetjeFaktor RaziskovanjeFaktor
## 1 1 1 DA DA
## 2 1 1 DA DA
## 3 1 1 DA DA
## 4 1 1 DA DA
## 5 0 1 DA NE
## 6 1 1 DA DA
summary(podatki[-1])
## GRE TOEFL Univerza Motivacija
## Min. :290.0 Min. : 92.0 Min. :1.00 Min. :1.000
## 1st Qu.:308.0 1st Qu.:103.0 1st Qu.:3.00 1st Qu.:3.000
## Median :316.0 Median :107.0 Median :3.00 Median :3.500
## Mean :316.2 Mean :107.2 Mean :3.42 Mean :3.418
## 3rd Qu.:324.0 3rd Qu.:112.0 3rd Qu.:4.00 3rd Qu.:4.000
## Max. :340.0 Max. :120.0 Max. :5.00 Max. :5.000
## Priporočila Dodiplomski Raziskovanje Sprejetje
## Min. :1.000 Min. :6.800 Min. :0.000 Min. :0.000
## 1st Qu.:3.000 1st Qu.:8.127 1st Qu.:0.000 1st Qu.:0.000
## Median :3.500 Median :8.560 Median :1.000 Median :1.000
## Mean :3.484 Mean :8.576 Mean :0.546 Mean :0.724
## 3rd Qu.:4.000 3rd Qu.:9.040 3rd Qu.:1.000 3rd Qu.:1.000
## Max. :5.000 Max. :9.920 Max. :1.000 Max. :1.000
## SprejetjeFaktor RaziskovanjeFaktor
## NE:138 NE:227
## DA:362 DA:273
##
##
##
##
fit <- glm(SprejetjeFaktor ~ GRE + TOEFL + Univerza + Motivacija + Priporočila + Dodiplomski + RaziskovanjeFaktor,
family = binomial,
data = podatki)
library(car)
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:DescTools':
##
## Recode
vif(fit)
## GRE TOEFL Univerza
## 1.330171 1.458553 1.111756
## Motivacija Priporočila Dodiplomski
## 1.193841 1.201897 1.291568
## RaziskovanjeFaktor
## 1.139325
mean(vif(fit))
## [1] 1.24673
podatki$StdOstanki <- rstandard(fit)
podatki$CooksD <- cooks.distance(fit)
hist(podatki$StdOstanki,
main = "Histogram standardiziranih ostankov",
ylab = "Frekvenca",
xlab = "Standardizirani ostanki")
head(podatki[order(podatki$StdOstanki), c("ID", "StdOstanki")], 3)
## ID StdOstanki
## 115 115 -2.562086
## 399 399 -2.308785
## 19 19 -1.996294
head(podatki[order(-podatki$StdOstanki), c("ID", "StdOstanki")], 3)
## ID StdOstanki
## 293 293 3.221921
## 477 477 2.220679
## 278 278 2.053021
head(podatki[order(-podatki$CooksD), c("ID", "CooksD")], 5)
## ID CooksD
## 293 293 0.26408066
## 278 278 0.07891793
## 126 126 0.06067084
## 409 409 0.05043987
## 91 91 0.04674420
podatki <- podatki[c(-278, -293), ]
fit <- glm(SprejetjeFaktor ~ GRE + TOEFL + Univerza + Motivacija + Priporočila + Dodiplomski + RaziskovanjeFaktor,
family = binomial,
data = podatki)
summary(fit)
##
## Call:
## glm(formula = SprejetjeFaktor ~ GRE + TOEFL + Univerza + Motivacija +
## Priporočila + Dodiplomski + RaziskovanjeFaktor, family = binomial,
## data = podatki)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.52198 -0.00093 0.00173 0.06062 2.33374
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -80.82097 14.98243 -5.394 6.88e-08 ***
## GRE 0.13987 0.04529 3.088 0.002012 **
## TOEFL -0.04550 0.09005 -0.505 0.613332
## Univerza 5.12701 1.13454 4.519 6.21e-06 ***
## Motivacija 1.27501 0.47954 2.659 0.007842 **
## Priporočila 0.48134 0.39463 1.220 0.222561
## Dodiplomski 2.56709 0.91458 2.807 0.005003 **
## RaziskovanjeFaktorDA 2.25587 0.63520 3.551 0.000383 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 587.841 on 497 degrees of freedom
## Residual deviance: 98.453 on 490 degrees of freedom
## AIC: 114.45
##
## Number of Fisher Scoring iterations: 9